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摘 要 : 在 数据 统计 分 析 查 询 中 表 间 的 等 值 连接 是 常用 的 操作 之 一 ， 但 代价 较 高 。 大 数据 环境 下 大 表 之 间 等 值 连接 的 
效率 更 低 。 为 了 解决 该 问题 ， 提 出 了 一 种 基于 Spark 的 两 表 等 值 连接 过 程 优化 方法 。 首 先 根据 数据 价值 密度 特征 构建 
Bloom Filter 完成 表 的 过 滤 操 作 ; 其 次 结合 Simi-Join 和 Partition Join 两 者 的 优势 ， 对 过 滤 后 的 单 侧 表 使 用 贪心 算法 进 
行 拆 分 ; 最 后 对 拆 分 后 的 子 集 进行 连接 ， 因 此 把 两 大 表 的 连接 过 程 转换 为 分 阶段 进行 的 两 小 表 连 接 。 代 价 分 析 和 实验 
结果 表明 该 算法 与 现 有 基于 Spark 的 连接 操作 相 比 不 仅 在 性 能 上 得 到 了 提升 而 且 当 出 现 数 据 倾 儿 时 对 算法 效率 影响 较 
小 。 
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Optimization of two-table equivalent connection process based on Spark 
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Abstract: The equivalence connection between tables in the statistical analysis of data is one of the commonly used operations, 
but the price is relatively high. In big data environment, the connection of large scale data tables is less efficient. In order to 
solve this problem, this paper proposed a method for optimization of two-table equivalent connection process based on Spark: 
first, constructed the Bloom Filter to complete the filtering operation according to the low density of data density; secondly 
combined the advantages of Simi-Join method and Partition Join methods, the he greedy algorithm Splitting methods is used for 
the filtered unilateral table; lastly joined the split subsets . Then the connection process of two big tables was changed into two 
stages of the two small table connection, Cost analysis and experiments show that the proposed algorithm has improved 
performance compared with the existing Spark-based connection operation performance and data tilt. 


Key Words: Spark; equivalent connection; large data analysis; optimize; split 


执行 Join 操作 。Broadcast Join 方式 由 于 每 个 Executor 都 会 接 


引言 


受到 表 的 全 部 数据 ， 占 用 一 部 分 内 存 空间 来 储存 接受 的 数据 ， 


在 大 数据 背景 下 ， 涌 现 出 了 Hadoop、Spark 等 计算 框架 。 以 存储 为 代价 避免 了 shuffle 操作 。 但 是 该 方式 局 限 性 明显 ， 只 


作为 一 种 分 布 式 内 存 并 行 计算 框架 ，Spark 趾 以 弹性 分 布 式 数据 ”适合 大 表 对 小 表 或 者 小 表 间 的 Join。 其 他 的 连接 方式 如 Shuffle 


代 计 算 , 在 大 数据 处 理 中 表现 出 较 好 的 性 能 。 Spark 环境 中 经 常 划分 四， 会 涉及 Shuffle。 如 果 数 据 量 大 时 ，Shuffle 会 带 来 大 量 
会 执行 数据 统计 分 析 、 查 询 等 任务 ， 其 中 等 值 连接 是 常用 的 但 的 网 络 通信 和 磁盘 IO, 并 且 数 据 分 布 难以 预知 。 当 数据 节点 上 


集 (resilient distributed datasets,RDD) D 为 数据 结构 ， 并 支持 迭 ”Hash Join 和 Sort Merge Join 等 ， 都 会 对 连接 属性 Key 进行 重 


是 代价 较 高 的 操作 之 一 。 尤 其 是 大 数据 环境 下 数据 表 规 模 巨 大 ， ”数据 倾斜 问题 出 现时 ， 会 造成 局 部 节点 作业 时 间 长 、 计 算 量 较 


大 表 之 间 的 等 值 关 联 操作 效率 更 加 低下 。 大 ， 因 而 导致 整体 作业 时 间 长 、 局 部 节点 出 现 OOM 和 计算 资 
Spark 中 对 表 等 值 连接 的 操作 是 RDD 的 执行 操作 记 ， 主 要 ” 源 浪费 等 问题 。 由 大 数据 的 数据 特征 知道 ， 数 据 价 值 密度 低 ， 
采用 Spark SQLB] 组 件 中 的 Broadcast Join、Shuffle Hash Join、 进行 连接 操作 的 两 表 通 常 存在 大 量 不 需要 join 的 数据 元 组 。 
Sort Merge Join 等 方式 。Broadcast Join 方式 是 将 其 中 一 张 数据 Spark/MapReduce 编程 中 常用 的 连接 算法 有 广播 连接 (map 
表 通 过 广播 变量 的 方式 广播 到 Spark 所 有 集群 节点 上 ， 然 后 再 side join) 和 重 划 分 连接 (reduce side join) 两 种 ， 但 是 它们 都 有 局 
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限 性 。Xu 等 加 基于 MapReduce 模型 提 
思路 是 选取 一 个 小 表 民 ， 将 其 参与 join 
到 文件 F 中 F 文件 很 小 可 以 放 到 内 存 中 )。 
j DistributedCache 将 FF 复制 到 各 个 TaskTracker 


she 


的 key 


出 了 Semi Join， 其 基本 
抽取 出 来 ， 保 存 
在 map 阶段 ， 使 


上 ， 然 后 将 为 


一 个 表 Q 中 不 在 上 中 的 key 对 应 的 记录 过 滤 掉 ， 剩 下 的 reduce 


待 连接 的 数据 集 进 行 


里 的 中 间 结 果 存 储 在 磁盘 中 ， 


法 ， 从 而 保证 reducer 负载 均衡 。 


阶段 的 工作 与 reduce side join 相同 ，Ramesh 等 [9 
于 Bloom Filter 的 等 值 连接 算法 ， 该 算法 采用 
过 滤 操 作 ， 减 少 Shuffle 阶 
然而 其 中 的 等 值 连接 方法 是 基于 MapReduce 计算 框架 ， 将 处 
与 Spark 的 机 制 不 
处 理 的 效率 较 慢 ， 而 且 其 没有 考虑 数据 倾斜 ，Zhou 等 人 中 指出 
数据 倾斜 是 因为 Hadoop 本 身 无 法 感知 mapper 站 
布 情况 ， 导 致 reducer 的 负载 不 ] 
Gufler 等 人 9 提出 了 两 种 根据 采样 结果 来 确定 划分 函数 的 方 
如 果 能 够 对 mapper 任务 输出 


提出 了 一 种 基 


Bloom Filter 对 


段 的 数据 量 。 


司 ， 对 此 整体 


湛 输 出 数据 的 分 
匀 衡 ， 影 响 连接 志 


执行 的 效率 ; 


的 中 间 结 果 进 行 统计 分 析 ， 确 定数 据 分 布 情况 ， 从 而 设计 适应 


的 分 区 函数 和 数据 分 发 机 制 ， 就 能 


衡 ， 卞 吴 穹 等 人 00 提 出 ] 


种 基于 Spark 的 等 


确保 每 个 reducer 的 负载 均 
连接 的 优化 方 


~ 
FactUK, 并 记录 对 应 记录 的 位 置 


ee 


存 到 内 存 中 。 


为 了 解决 以 上 连接 过 程 中 的 问题 ， 


连接 ， 生 成 JoinedUK。 最 后 根 扩 
JoinedUK 与 Fact 表 进 行 组 装 , 得 到 最 


法 ， 其 优化 思想 是 : 首先 获取 Fact 表 连 接 


终结 


OO 


于 大 表 与 小 表 之 间 等 值 连接 的 情况 ， 
存 到 内 存 中 ， 然 而 在 实际 应 用 中 ， 


Spark 的 两 表 等 值 操作 优化 算法 。 


该 算法 
Simi-Join 和 
Key 的 分 区 


准 BloomFilterl111 进 行 过 波 ; 其 次 结合 
两 者 优势 ， 通过 对 一 侧 表 连接 属性 
Key 数据 倾斜 62 情况 的 分 析 结 果 ， 做 为 贪心 策略 的 启发 选择 ; 


届 性 的 无 重 集合 


本 文 提 


次 用 FactUK 与 Dim 表 进 行 
居 JoinedUK 中 记录 的 位 置 将 
果 。 但 是 该 方法 只 适 
是 默认 数据 表 均 可 以 组 
大 部 分 数据 表 是 


很 难 完全 组 


出 了 一 种 基于 
首先 对 数据 表 构 建 标 


Partition Join 


盲 息 和 男 一 侧 表 


最 后 对 过 滤 后 的 单 侧 表 使 用 贪心 入 


法 [3] 进行 拆 分 ， 并 对 拆 分 后 


的 子 集 进行 连接 。 从 而 把 两 大 表 的 连接 过 程 转换 为 分 阶段 进行 
的 两 小 表 连 接 ， 并 得 到 连接 结果 。 代 价 分 析 和 实验 表明 了 本 文 


的 算法 比 基 于 Spark 的 连 变 操 作 在 4 


数据 倾斜 时 对 算法 的 影响 较 小 。 


1 ”基于 Spark 的 两 表 等 值 连接 优化 方法 


在 对 两 大 表 等 值 连接 过 程 中 ， 首 
不 符合 连接 条 件 的 元 组 进行 过 滤 优 化 ， 降 低 整体 数据 量 。 针 对 
Spark 中 Broadcast Join、Shuffle Hash Join、Simi-Join 等 的 局 限 
性 ， 提 出 了 一 种 在 Spark 上 做 等 值 连接 的 优化 方法 ， 分 为 两 个 
2 所 示 ， 图 中 的 符号 


阶段 如 图 1 
1.1 过 滤 连 接 表 


性 能 上 得 到 了 提升 ， 当 出 现 


因为 Bloom Filter 具有 占用 时 空 


该 阶段 采用 标准 的 Bloom Filter 进行 数据 过 滤 。 


要 对 两 表 中 存在 的 大 量 


如 表 1 所 示 。 


小 , 运 


算 快 速 快 等 优点 ， 
虑 


抽取 两 个 数据 表 (RDD a、RDD b ) 的 连接 属性 join Key， 


居 表 进行 
两 个 数 


RDD a 大 抽取 | 去 重 -| 
JoinKey | 


过 滤 操 作 ， 


张 子 栋 ， 


居 Joinkey a 和 Joinkey b。 


个 RDD 进行 去 重 ， 


ChinaXiv 合 作 其 
: 基于 Spark 的 两 表 等 值 连接 过 程 人 


得 到 Joinkey a 和 Joinkey_b 两 个 新 的 RDD, 然后 使 用 Spark 自 
带 的 distinct 操作 对 这 
民 负 


| BloomFilter 人 / 
| 压缩 处 理 


RDD_b /| 抽取 > 去 重 一 > 


| JoinKey 


| nd 上 5 


BloomFilter 


压缩 处 理 


抽取 JoinKey 一 


RDD_b f /一 


人 情况 


全 


2 算法 第 二 阶段 : 采样 统计 数据 分 布 


统计 分 析 。 于 一 一 


| /RDD_ af 7 

BF 过 滤 一 > 分 区 优化 
A 
-一 一/ RDDbf / 


图 1 算法 第 一 阶段 ， 过滤 连接 表 


La JoinKey_a_f / 


Sample 
£ / 人 
一 地 Joinkey bf /A 


3 
/ 
一 JoinKey_a_s | 


4 


[| JoinKey_b_s 二 一 一 
€ 7 


天 一 和 RDDal 


一 二 RDDa2 


各/ RDDa / 


ee 由 
A » | 分 析 一 一 
倾斜 情况 / Join 
ee RDDbi / 人 
图 3 算法 第 三 阶段 -分 段 预 连接 并 组 装 连 接 结果 
表 1 图 中 所 用 符号 说 明 
符号 描述 
RDD a (b) RDD a( 数 据 表 a, 数据 表 b) 
JoinKey_a(b) RDD a(b) 的 连接 属性 
BFA@) RDD a(b) 的 BloomFilter 位 数组 
BF BloomFilter 位 数组 
RDD a(b) f 分 区 后 的 RDD_a(b) 
RDDai RDD a(b) 拆 分 出 的 分 区 


JoinKey a(b) f 


对 RDD_a(b) 了 抽取 Joinkey 操作 获得 的 集 


" 


得 到 两 个 无 重 的 数 
使 用 Spark 类 库 的 BloomFilter 分 
别 对 无 重 集 JoinKey a 和 JoinKey_b 的 进行 压缩 处 理 ， 并 计算 
得 到 两 个 位 数组 BFA 和 BFs ,再 对 BFA 和 BFs 进行 and 运算， 
生成 最 终 的 过 滤 位 数组 BF。 使 用 BF 分 别 对 需要 连接 的 两 张 数 
过 滤 掉 不 满足 join 连接 的 数 扩 
昌 表 RDD a f 和 RDD bf。 


虽 记 录 ， 生 成 
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1.2 采样 分 析 - 统 计数 据 分 布 
对 过 滤 后 的 两 个 分 


区 RDD af 和 RDD bf 分别 


取 


Joinkey 操作 获得 JoinKey a f 和 JoinKey b f 两 个 集合 。 对 
JoinKey af 和 JoinKey bf 两 个 RDD 使 用 sample 算 子 , 分 别 


对 两 个 分 


区 的 Joinkey 进行 采样 〈 如 果 采 样 
量 很 大 的 计算 负担 ， 根 据 帕 累 托 法 


率 太 大 会 造成 数据 


则 ， 将 采样 率 定 为 0.2)， 得 


出 两 份 样本 ,然后 对 两 个 样本 进行 统计 分 析 量 ， 计 算出 来 两 张 


表 中 数据 量 最 大 的 是 
1.2.1 采样 分 析 


设 两 个 表 中 较 小 的 表 为 RDD_S， 下 再 


分 析 。 


Key 进行 采样 
给 定 采样 


率 B， 对 RDDS 进行 采 档 


b 几 个 key 和 相应 的 数据 倾斜 情况 。 


对 RDD S 连接 属性 


得 到 样本 集合 


SampleKeysRs 并 分 析 SampleKeysRs 样本 中 Key 的 倾斜 情况 ， 
依据 Key 频次 分 布 和 Key 整体 分 布 进行 划分 为 两 类 互 不 相交 


的 集合 ， 把 频次 分 布 频次 高 的 放 在 集合 


Sstew， 频 次 相对 均匀 或 


者 频次 低 的 放 在 集合 Sais 中 。RDD_S 中 出 现 未 在 SampleKeyRs 


包含 的 Key， 依 据 统 计 概 率 ， 
中 。 


RDD_S 


羊 操作 使 用 
操作 ,其 目 


法 ) 进 
个 样 


有 ama 个 项 
以 减少 采样 占用 的 内 存 空间 。 
1.2.2 统计 数据 分 布 

对 于 采 村 
别 进行 统计 分 析 和 对 比 ， 主 要 


应 数据 分 布 情况 和 数据 倾斜 情况 。 
概括 统计 、 分 层 统计 、 核 密度 估算 等 方法 , 故 使 用 
集 进行 统计 分 析 主 要 是 为 了 查看 
单个 RDD 中 数据 的 倾斜 情况 ， 和 估算 单个 表 中 Key 对 应 数据 
fF 本 集 统计 分 析 结 果 进 行 对 比 是 为 了 找 出 两 
分 布 情况 。 在 


进行 统计 分 析 。 对 于 单个 样本 


三 岂 
总 量 


量 。 对 于 两 表 的 权 
个 分 区 中 相同 Key 值 的 数 ] 


Spark Statistics 库 中 的 方法 ， 得 到 如 


单个 Key 占 的 比例 Rk ; 


c) 单 个 RDD 中 Key 按照 采样 


(me) 


Key 


勇于 频次 很 低 的 key， 也 放 入 Sais 


二 Se U Ss (1) 


Spark 提供 的 ReservoirSample( 水 塘 采 样 算 
的 在 于 从 包含 
其 中 n 为 一 很 大 或 未 知 的 数量 ， 


目的 集合 S 中 选取 k 
尤其 适用 于 不 能 把 所 


n 个 项 


都 存放 到 主 内 存 的 情况 ， 使 用 ReservoirSample 可 


f 得 到 的 两 个 样本 集 JoinKey a s 和 JoinKey b s 分 


标 是 查看 两 个 RDD 中 key 对 
于 Spark Statistics 库 中 有 


Spark Statistics 


改 统计 分 析 时 ， 利 用 
a) 单 个 RDD 


下 统计 


F 信 息 : 


b) 单 个 RDD 数据 倾斜 严重 的 Key ; 


样 


本 中 的 量 的 自然 排序 ，d) 两 个 


RDD 中 相同 Key 的 数据 比例 Rs。 
1.3 分 段 预 连接 并 组 装 连 接 结 果 
对 两 表 中 较 小 的 表 RDD_S, 进行 Key 抽样 ， 得 到 Key 抽 


样 样本 集合 


SampleKeysRs。 


分 过 程 使 用 
RDD Si。 


根 提 
情况 和 RDD B_UK 中 Key 的 分 
贪心 算法 把 RDD_S 动态 拆 分 成 一 定数 
每 次 拆 分 出 一 个 子 集 RDD Si 就 进行 RDD _B 与 该 子 


届 SampleKeyRs 中 Key 的 倾斜 
区 号 对 RDD_S 进行 拆 分 。 拆 


而 每 次 的 RDD _Si 的 数据 量 相对 于 RDD 8S 很 小 , 无 须 占 


内 存 空 


zs 间 和 计算 量 。 

接 结果 的 组 装 进行 了 六 

1.3.1 单 侧 表 
对 预 连 


张 子 栋 ， 


naXi 


Chit 
: 基于 Spark 的 两 表 生 


合作 期 乔 


连接 过 程 优化 


IV 


大 量 


下 面 
细 的 描述 。 


诈 分 方法 


含 的 分 


分 布 和 整体 | 
所 有 Key 的 数据 倾斜 情况 是 直 
载 量 ， 为 此 选取 的 贪心 策略 主要 参考 以 下 三 点 : 


布 , 每 个 Key 对 应 的 分 


区 


天 


号 进行 重 划分 ,因此 PreJoined 中 


分 别 对 单 侧 表 拆 分 方法 、 


预 连接 和 连 


接 得 到 的 PreJoined， 需 要 根据 PreJoined 中 Key 包 
包含 的 分 


区 号 的 均匀 


生 是 影响 划分 并 行 度 的 因素 。 


而 
影响 连接 组 


每 个 分 区 号 对 应 的 
装 各 个 计算 节点 负 


a) 拆 分 的 子 集 RDD Si 的 所 有 Key 包含 的 分 区 号 要 均匀 分 


区 号 数量 


上 要 基本 相等 。 所 有 Key 对 应 


的 分 区 号 整体 性 要 接近 RDD_B 的 所 有 分 区 号 整体 性 。 

b) 任 意 一 个 分 区 上 对 应 的 所 有 Key 的 数据 规模 要 和 其 他 分 
区 上 接近 。 

c 对 于 上 述 两 点 ， 贪 心 策略 主要 依据 RDD_B_UK 中 Key 
所 对 应 分 区 列表 及 RDD_S 的 Key 抽样 分 析 划 分 的 集合 Sstew 和 
Sais 作 启 发 选择 。 

整个 拆 分 过 程 是 使 用 贪心 算法 把 RDD_S 动态 拆 分 成 一 定 
数目 n 的 子 集 RDD_S;，0<i<n。 拆 分 过 程 是 n-l 次 运算 ， 
次 使 用 贪心 策略 每 次 对 输入 的 RDD_Sj 拆 分 出 其 RDD Si， 其 
中 ，0<j<n。 


数据 表 RDD Sj 和 RDD Si 满足 以 下 关系 : 
始 化 输入 RDD Si 的 值 为 RDD S 


拆 出 RDD S 的 子 集 


RDD_S=RDD_S; URDD_S. 


RDD_S,=RDD_S 


—~j+tl 


URDD_S, 


i, j=n-1, RDD, = RDD, 


过 连接 。 
1.3.2 预 连接 


连 


妇 


RDD _B_UK 和 RDD_S 的 子 旨 
E 接 结果 PreJoined，PreJoined 中 每 个 元 素 包 含 了 一 个 Key 和 


RDD Si 中 对 应 于 
分 
且 RDD B UK 


预 连接 


1.3.3 组 


将 


区 号 的 列表 。 经 过 拆 分 的 RDD Si 


的 经 


的 子 集 


中 


必 的 连接 ， 连 接 后 再 
完成 。 这 一 过 程 中 都 是 


拆 分 并 连接 ， 直 
每 次 拆 分 出 RDD_Si 后 再 连接 再 拆 ， 


至 所 有 RDD_S 数据 连接 


可 
EE 


RDD_B 存储 在 相同 的 分 


T 且 分 


区 号 与 RDD 
属性 Key 与 分 
据 重 划分 的 和 


RDD Si 后 ， 就 用 RDD B_UK 和 
RDD Si 进行 连接 阶段 ,连接 阶段 包括 预 连接 和 组 装 连接 结果 。 
重复 上 述 过 程 直至 RDD S 中 所 有 


Key 都 被 拆 分 出 来 ， 并 进行 


疏 RDD_Si 进行 并 行 连接 得 到 


该 Key 的 元 组 ， 以 及 该 Key 对 应 的 RDD_B 
的 数据 规模 远 小 于 RDD_S， 
的 数据 量 也 很 小 ， 故 预 连接 的 速度 很 快 ， 并 且 
吉 果 分 布 在 计算 结果 中 ， 减 少 了 Shuffle 的 
装 连 接 结 果 
PreJoined 数据 进行 按照 Key 所 对 应 的 分 


开销 。 


B (i 
区 号 列表 的 无 重 集 ， 


XxX ， 


之 后 再 


选 定 较 大 的 表 RDD _B， 
就 是 为 了 减少 连接 过 程 中 数 
量 ) 分 区 号 是 一 一 对 应 ， 划 分 得 到 


的 结果 集 和 


通过 zipPartitions 操作 将 
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RDD_B 和 PreJoined 做 快速 的 组 装 。 这 一 过 程 没有 在 网 络 上 传 
输 RDD_B 中 的 数据 。 且 前 面 选择 的 贪心 策略 会 使 这 一 过 程 中 
数据 倾斜 度 降 低 ， 各 个 节点 负载 基本 平衡 ， 且 分 区 号 的 分 布 均 
勾 ， 这 种 整体 性 能 够 充分 利用 集群 节点 的 并 行 计算 能 力 ， 提 高 
计算 速度 。 
2 ”算法 分 析 
2.1 网 络 VO 代价 分 析 

本 连接 算法 中 ， 单 表 去 重 阶段 没有 网 络 开 销 ， 网 络 IO 开 
销 来 自 广 播 BloomFilter 进行 过 滤 和 连接 阶段 的 预 连接 过 程 的 
数据 划分 和 连接 结果 的 组 装 ， 如 式 (2) 所 示 : 


NetCost = NetCost,y + NetCost 2 NetCost,, QQ2) 


算法 虽然 是 拆 分 单 侧 表 ， 但 所 有 拆 分 并 连接 的 网 络 VO 数 
据 量 等 于 单 侧 表 网 络 IO 数据 量 , 且 每 次 拆 分 并 连接 的 网 络 TO 
数据 量 远 小 于 单 侧 表 网 络 IO 数据 量 造 成 的 网 络 压力 。 其 中 
NetCostpi 是 预 连接 数据 划分 的 网 络 IO 代价 ， 用 数据 量 表示 ， 
如 式 (3) 所 示 : 


NelCosft = Size( RDD _B_UK)+ oeSize(RDD_S) 0G) 


于 过 滤 去 重 后 的 RDD_B_UK 中 元 组 个 数 少 于 RDD_B， 
且 每 个 元 组 仅 包含 一 个 Key 值 及 其 对 应 的 分 区 号 ， 因 此 
RDD_B_UK 的 数据 量 远 小 于 RDD_B， 即 : 
Size( RDD_B_UK)= QEeSize( RDD _B) 

其 中 ，0<w < 入 1L0<E < 入 1 

NetCostz 是 结果 组 装 的 网 络 IO 代价 ， 通 常 由 于 预 连接 之 
后 相当 于 RDD_B_UK 在 连接 属性 上 又 做 了 全 局 的 去 重 且 排除 
了 不 能 连接 的 元 组 ，NetCostzp 会 远 低 于 NetCostpj。 而 NetCostpr 
是 使 用 BloomFilter 进行 两 表 过 滤 生 成 的 压缩 位 数组 的 网 络 IO 
代价 ， 因 此 数据 量 也 远 小 于 NetCostpj。 

设 参与 连接 的 节点 数 为 N， 则 总 的 通信 量 将 由 这 些 节 点 分 

扒 , 因此 本 文 算法 的 网 络 VO 代价 估算 结果 如 式 (4) 所 示 : 

Net Cost ~ Net Cost Wt Net Cos fap + Net Cost,e 


CEsSize(RDD _B)+Size(RDD _ 91) (4) 
N 


< 


其 中 ，0<a < 0<e<<1 
2.2 内存 空 间 代价 分 析 

算法 中 构建 的 BloomFilter 数据 结构 在 过 滤 完 表 后 就 释放 ， 
不 需要 缓存 在 内 存 中 。 整 个 拆 分 过 程 中 需要 缓存 过 滤 后 两 表 
Key 及 其 分 区 号 和 Key 的 倾斜 集合 Ssew， 并 且 预 连接 的 结果 也 
需要 缓存 ， 故 占用 了 一 定 的 内 存 消耗 。Sstew 是 根据 给 定 抽样 率 
对 过 滤 后 的 RDD_S 的 倾斜 数据 的 Key 的 集合 ， 因 此 Sstew 内 存 
销 号 远 小 于 Size(RDD_S), 所 以 算法 的 内 存 代价 如 式 (5) 所 示 : 


MemCost =2x Size(RDD_B_UK)+ 
QeSize(RDD _S)+ Size(S,,,) (5) 
~2x Size(RDD_B_UK)+ aeSize(RDD_S) 
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2.3 ”对 比分 析 
由 于 Spark Broadcast Join 只 能 应 用 于 两 表 中 有 


表 是 小 表 


的 场景 ， 因 此 本 文 只 和 目前 应 用 较为 广泛 的 Hash Join 方式 作 
对 比分 析 。Hash Join 是 重 划分 连接 ， 所 以 每 个 节点 的 网 络 通信 


量 为 (Size(RDD _B)+Size(RDD S)XN ， 故 所 需 内 存 空间 为 
Size(RDD_B)+Size(RDD_S)。 本 文 算法 与 Spark Hash Join 算法 
的 对 比如 表 2 所 示 。 

表 2 两 种 等 值 连接 算法 代价 对 比分 析 


等 值 链 接 
， 网 络 IO 代价 内 存 空 间 代 价 
算法 
ize(RDD B ize( RDD Size(RDD _B) 
Hash 连接 Size( _B)+ Size( _S) 
N +Size(RDD _S) 
eSeSi RDD_B 
= 2 2 =B) ~ QeSize(RDD _S) 
本 文 算法 ; 
+ SIERDPD_S) pox size(RPD_B_UK) 


N 


3 ”实验 分 析 


实验 选用 了 2 组 数据 表 ， 每 组 都 是 2 个 数据 大 小 不 同 的 数 
据 表 (第 一 组 数据 倾斜 程度 低 于 第 三 组), 给 定 的 抽样 率 为 40% 
分 别 使 用 本 文 算法 和 Spark 的 Hash Join 算法 对 数据 进行 了 关 
联 操作 ， 并 作对 比分 析 。 两 表 的 关联 字段 分 别 是 C_RID 和 
P_RID。 数 据 表 大 小 如 表 3 所 示 : 
表 3 数据 集 大 小 
1 2 


洋 
Ni 
Vs 


表 1 7.2G 7G 
表 2 8.6G 9.1G 


3.1 实验 环境 
实验 环境 使 用 的 软件 名 称 ， 如 表 4 所 示 。 
表 4 软件 环境 


操作 系统 JDK 版 本 Hadoop Spark 
Oracle Apache Apache 
CentOS7-x64 
jdk1.8.0 92 Hadoop2.7 Spark2.1.0 
本 文 的 硬件 环境 是 在 实验 室 的 计算 机 上 使 用 VMWare 创建 


的 CentOS7 虚拟 集群 环境 中 进行 的 ， 集 群 中 共有 
个 虚拟 节点 硬件 配置 如 表 5 所 示 。 


6 个 节点 ， 每 


表 5 硬件 环境 
CPU 内 存 。” 硬盘 网 络 
2 核 26GHz 2GB 60GB 100Mbps 


3.2 实验 结果 
两 组 实验 的 运行 结果 如 图 4 所 示 。 

图 4 中 的 执行 时 间 是 3 次 执行 取得 的 平均 值 ,单位 为 min。 
过 实验 结果 本 文 连接 算法 的 执行 速度 仍然 比 Spark SQL 中 的 


[ea 


201805.00298v1 
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Hash Join 高 出 1 倍 以 上 , 并 且 通 过 图 4 中 两 组 实验 中 使 用 同一 
种 算法 的 执行 速度 对 比 , 当 两 组 实验 的 数据 表 规模 变化 不 大 时 ， 
如 果 数 据 倾斜 情况 不 一 样 ， 使 用 Spark Hash Join 得 到 的 两 次 时 
间 变 化 比较 明显 ， 尤 其 是 第 二 组 实验 的 数据 集 倾斜 情况 比 第 一 


组 数据 严重 ， 对 应 的 Hash Join 
min; 而 本 文 算法 的 执行 速度 变化 不 大 , 本 文 算 法 第 二 组 实验 上 


第 一 纪 


日 仅 慢 了 0.7 min。 通 过 以 上 分 析 ， 可 见 本 文 的 算法 在 做 


本 | 


连接 执行 时 间 (min) 


第 二 组 实验 
日 本文 算法 


" 
Join 


国 本 文 算 法 国 Spark Hash Join 


图 4 连接 执行 时 间 对 比 


4 ”结束 语 


执行 时 间 明 显 比 第 一 组 满 了 4.8 


Cc 


冰 
[3 


接 操 作 时 ， 不 仅 比 Spark Hash Join 操作 的 执行 速度 快 ， 而 且 在 
对 数据 倾斜 情况 依然 具有 变化 不 大 的 执行 效率 。 


目前 Spark 在 数据 分 析 中 已 经 普及 ， 交 互 式 大 数据 分 析 业 


务 需 求 越 来 越 多 。 链 接 性 能 一 直 是 交互 式 数据 分 析 中 的 性 能 瓶 
颈 。 本 文通 过 对 目前 Spark/MapReduce 上 的 等 值 连接 算法 进行 


了 分 析 研 究 , 提出 了 一 种 基于 Spark 的 等 值 连接 过 程 优化 算法 
， 从 大 数据 价值 密度 低 特征 和 数据 倾斜 
、 拆 分 连接 过 程 ， 并 通过 实验 和 分 析 证 
现 有 的 连接 算法 的 性 能 提升 , 且 对 数据 倾斜 具有 适应 性 


本 算法 有 很 好 的 适用 人 性 
情况 出 发 ， 过 滤 、 去 习 


明了 
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